日常生活中,人们常常会对事物或人进行对比、评价、排名或打分,为的是得到对关注的事物或人“有多好”的判断,进而为实现改进、提升等目的做好铺垫。 在做评价时,一种思路是计算各个评价对象与“最好”的那个对象的差距,如果没有差距的话,自然这个评价对象就是最好的;差距越大,就越不好。因此,评价者可以根据与评价对象与“最好”之间的差距对评价对象进行排名或打分。
类比某些家长激励孩子时会说“看看***(某个孩子)表现得多好,再看看你...”。这里家长口中的某个孩子就是“最好”。但是什么是“最好”呢?如何度量与“最好”之间的距离呢?
解决好上述两个问题,基本就建立类似评价的数学模型的大致框架了。下面就如何设定“最好”来分别介绍几种建立模型的思路。不过正式介绍之前,我们先引入一些术语和符号方便表述:
另外这里假设指标值都是越大越好(称为“效益型”指标或“极大型”指标,其他类型指标可以转换到该类型指标);同时各个指标量级相同(即经过了无量纲化处理);
如果我们仅以各科成绩作为评价一个学生的标准,那么各科都拿到最高分的可以视为是“最好的”,虽然这种学生较少或者说是罕见,但是作为一个“标杆”还是可以的,设“最好”评价对象的第$j$个指标的值(满分)为$a_{0j}$。评价对象各项指标值写为
$a_{i j}(i=1,2, \cdots, n ; j=1,2, \cdots, m)$。
则某个评价对象离满分越近,则越好,即:
$$
d_{i0}=\sum_{j=1}^m w_j(a_{0 j}-a_{i j})=\sum_{j=1}^m w_j a_{0 j}-\sum_{j=1}^m w_j a_{i j}
$$
d{i0}越小越好。由于$\sum{j=1}^m wj a{0 j}$为定值,也就是
$$
s_{i0}=\sum_{j=1}^m w_j a_{i j}
$$
$s_{i0}$越大越好。
“门门满分”确实很难,我们降低些标准,但同样也不容易达到:虚构一个评价对象,这个评价对象各个指标并非满分,但是是所有评价对象中都最好的值。举例来说,有的同学数学好、有的同学体育好、还有的同学艺术最好,可能现实生活中没有样样都好的人,但我们可以虚拟一个同学在各个指标上都最好(可能不是满分,但是是最高分)。设“最好”评价对象的第$j$个指标的值为$a_{0j}$,定义为 $$a_{0 j}=\max _{1 \leq i \leq n} a_{i j}, j=1,2, \cdots, m$$ 然后我们再测量其他指标距离这个“理想”指标的距离: $$ d_{i0}=\sum_{j=1}^m w_j(a_{0 j}-a_{i j})=\sum_{j=1}^m w_j a_{0 j}-\sum_{j=1}^m w_j a_{i j} $$ d{i0}越小越好。与思路1类似,由于$\sum{j=1}^m wj a{0 j}$为定值(所有指标最大值的加权和),也就是 $$ s_{i0}=\sum_{j=1}^m w_j a_{i j} $$ $s{i0}$越大越好。这个结果与思路1最后运算的结果相同,只是对于“最好”的选取不同。可以说是异曲同工了。不过这里再补充一个更复杂的处理方法——灰色关联系数,定义如下 $$ \xi{i j}=\frac{\min {1 \leq s \leq n} \min {1 \leq k \leq m}\left|a{0 k}-a{s k}\right|+\rho \max {1 \leq s \leq n} \max {1 \leq k \leq m}\left|a{0 k}-a{s k}\right|}{\left|a{0 j}-a{i j}\right|+\rho \max {1 \leq s \leq n} \max {1 \leq k \leq m}\left|a{0 k}-a{s k}\right|} $$ $\xi{i j}$ 为第$i$个评价对象对“最好”对象在第 $j$ 个指标上的关联系数, 其中 $\rho \in[0,1]$ 为分辨系数。称式中 $\min {1 \leq s \leq n} \min {1 \leq k \leq m}\left|b{0 k}-b{s k}\right| 、 \max {1 \leq s \leq n} \max {1 \leq k \leq m}\left|b{0 k}-b_{s k}\right|$ 分别为两级最小差及两级最大差。
一般来讲, 分辨系数 $\rho$ 越大, 分辨率越大; $\rho$ 越小, 分辨率越小。
最后计算 $$ r_{i}=\sum_{j=1}^{m} w_{j} \xi_{i j}, \quad i=1,2, \cdots, n . $$ 其中 $w_{j}$ 为第 $j$ 个指标变量 $x_{j}$ 的权重。$r_{i}$也是越大越好。看起来高级多了,不过基本想法还是基于同“集众多优点于一身”的“最好”对象的比较得出的结果。
上面两种思路只是衡量了与“最好”之间的距离,而TOPSIS方法还衡量了与“最差”之间的距离,相当于是将两种距离进行了综合。在TOPSIS方法中,称“正理想解”为由各项指标最大值构成的虚拟对象,“负理想解”为由各项指标最小值构成的虚拟对象。
“正理想解”的第$j$个指标的值为$a_{0j}$,定义为 $$a_{0 j}=\max _{1 \leq i \leq n} a_{i j}, j=1,2, \cdots, m$$ “负理想解”的第$j$个指标的值为$b_{0j}$,定义为 $$b_{0 j}=\min _{1 \leq i \leq n} a_{i j}, j=1,2, \cdots, m$$
接下来计算第 $i$个评价对象与正理想解 $A_{b}$之间的欧氏距离(L2距离) $$d_{i}^+={\sqrt {\sum _{j=1}^{n}(a_{ij}-a_{0j})^{2}}},\quad i=1,2,\ldots ,m,$$ 以及第$i$个评价对象与负理想解$A_w$的欧氏距离 $$d_{i}^-={\sqrt {\sum _{j=1}^{n}(a_{ij}-b_{0j})^{2}}},\quad i=1,2,\ldots ,m$$
最后综合与正负理想解的距离 $$s_{i}=d_{i}^-/(d_{i}^- +d_{i}^+),\quad 0\leq s_{i}\leq 1,\quad i=1,2,\ldots ,m.$$ 其中$s_{{i}}=1$ 当且仅当该评价对象为正理想解; 及 $s_{i}=0$ 当且仅当该评价对象为负理想解 基于上述结果 $s_{i}\,\,(i=1,2,\ldots ,m).$进行排名,越大越好。
这种想法的代表是数据包络分析(DEA) 模型,该方法可以评价某个对象是否达到最高“效率”,具体来说,是在对所有对象的“投入”进行加权使其小于关注的那个对象的投入值,同时确保对所有对象同样权重下合成的产出值不低于所关注对象的产出值。这里不详细展开对DEA的叙述,但我们可以理解为这种思路下的“最好”是所有指标加权情况下的最好,也就是说合成起来更复杂了。这里仅提出概念,不作更深入解释。感兴趣的同学可以搜索相关文章。
本文就如果设定“最好”对象进行展开,介绍了几类评价模型的建模思路和符号表达。